iT邦幫忙

第 12 屆 iThome 鐵人賽

DAY 22
1
AI & Data

掌握資料分析之美:就用Tableau來說故事吧!系列 第 22

故事二十二:今天來試試研究方法!

  • 分享至 

  • xImage
  •  

  昨天,我們在實作的過程中,留下一個問題,就鑽石分級的定義,理論上,顏色D的價格 > 顏色E的價格 > 顏色F的價格。但是,「線性迴歸分析中」,顏色D的價格 跟 顏色F的價格很接近,但是,顏色E的價格,卻偏低......
  今天我們就來找找原因:
  1. 先看看昨天的公式
  顏色D : price = 8510carat - 2478; 1克拉 = 6032; 2克拉 = 14,542; 3克拉 = 23,052
  顏色E : price = 7962carat - 2257; 1克拉 = 5705; 2克拉 = 13,667; 3克拉 = 21,629
  顏色F : price = 8678carat - 2434; 1克拉 = 6244; 2克拉 = 14,992; 3克拉 = 23,670

  2. 我們在Tableau中,建一個平均值的表格。我先把克拉換成整數,從數字觀察上,我們預期,Color=E, Carat=1, 這個地方的平均應該在 7800附近。
https://ithelp.ithome.com.tw/upload/images/20201007/20130724lDA3Qjzc8L.png
  3. 來寫一個小公式吧!把統計區間縮小。
  https://ithelp.ithome.com.tw/upload/images/20201007/20130724IZwSkf1BLy.png
  4. 先來看看平均價格。
https://ithelp.ithome.com.tw/upload/images/20201007/20130724FId7sK94NJ.png
  5. 再來看看樣本數量。由這兩個圖表來看,在1克拉以下的數據,與假設的較符合,但是,1克拉以上就不符合,因此,只能再進一步研究這個部分的數據。另外,1,25克拉以上的數據偏少,價格平均值容易受到極端值影響。
  https://ithelp.ithome.com.tw/upload/images/20201007/201307243XvC4O2HR5.png
  6. 將資料範圍限定,重畫昨天的圖(carat > 1)。雖然P值很低(無法拒絕),但R平方在51附近,資料解釋能力並不高。
https://ithelp.ithome.com.tw/upload/images/20201007/20130724FFrZx9jpqB.png
https://ithelp.ithome.com.tw/upload/images/20201007/20130724S5OKZ3Biqg.png
  7. 把4C合在一起。這張圖,隱約可以看出資料量對回歸分析的影響。
https://ithelp.ithome.com.tw/upload/images/20201007/20130724GmoQyIa9yO.png
  我想,鑽石的價格策略,都是依照 4C標準去制定的。這也是為什麼在1克拉以下,加上數據量大的時候,迴歸分析結果,跟我們假設(預期)的很接近。但是,如果數據量不大(如下圖),1.4克拉以下,整個價格邏輯還是follow 4C的市場共識,但是,1.6克拉以上,有三顆 2克拉附近的鑽石,被高價賣出,讓整個線圖走揚。
  https://ithelp.ithome.com.tw/upload/images/20201007/201307240FFWGAzAnG.png

  看來,「大數據分析」就是要努力去尋找「看似沒有關係,事實上,可能存在某種關係。」這一類充滿挑戰性的虛擬問題啊!


上一篇
故事二十一:今天不花俏,就是簡單練習一下手感!
下一篇
故事二十三:三天連假,今天來做一張旅遊地圖好了!
系列文
掌握資料分析之美:就用Tableau來說故事吧!30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言